회귀 분석 (문단 편집)

== 설명 ==
회귀분석은 주어진 자료들이 어떤 특정한 경향성을 띠고 있다는 아이디어로부터 비롯된다. 회귀분석은 기본적으로 변수들 사이에서 나타나는 경향성을 설명하는 것을 주 목적으로 한다. 즉, 변수들 사이의 함수적인 관련성을 규명하기 위해 어떤 수학적 모형을 가정하고 이 모형을 측정된 변수들의 자료로부터 추정하는 통계적 분석 방법이다. 어떤 관계가 있을지에 대한 여러 가지 가설들을 회귀 '모형'이라 부르며, 회귀모형은 수학적으로 표현했을 때 크게 트렌드를 나타내는 부분과 통제할 수 없는 오차를 나타내는 부분으로 분리된다.

'모형'은 간단히 말하면 현실을 간략하게 표현한 것이다. 앞에선 이야기한 여러 가설들을 회귀'모형'이라고 부르는 이유는, 그 모형이 100%까지는 아니라고 하더라도 간단한 가설을 통해 현실의 많은 부분을 설명해줄 수 있기 때문이다. "경제학의 많은 문제는 검증이 불가능하여 가설 설정에 그치기 때문에 모형"이 된다는 설명은, 오히려 수리적으로 모형을 검증하기 위한 실험이나 자료수집 역시 있다는 것을 생각해보면 다소 부적절한 설명이다.

기본적으로는 오차를 가능한 한 작게 만드는 모형이 좋은 모형이기 때문에 오차를 가장 작게 만드는 모형을 찾는 방법들이 만들어졌는데, 가장 일반적으로 접하게 되는 것은 자료와 평균의 오차를 제곱해서 더했을 때, 그 합이 가장 작아지는 모형을 찾아내는 '[[최소제곱법]]'이다. 자료와 평균의 오차만 구해서 그대로 더하게 되면, '평균'의 정의로 인해 오차의 합은 반드시 0이 된다. 때문에 일부러 오차를 제곱해서 0보다 큰 수들로 만든 다음에 이 값들을 누적하여 사용하는 것이다.[* 입문 수준의 통계학 책에서는 직관적 이해를 돕기 위해 본문과 같이 설명하는 경우가 많다. 하지만 이러한 설명은 좀 부정확하다. 일단 '평균'이라고 했는데, 어떤 변수의 평균을 말하는 것인지에 대한 설명이 없다. 좀 더 정확히 말하면 오차항 e에 대한 가우스-마코프 조건 중 하나인 E(e) = 0 가정에 의해 오차항의 기댓값이 0이라고 말해야한다. 평균과 기댓값을 사실상 같은 말로 취급하는 경우도 있으나 기댓값은 실현값의 확률에 대한 가중평균이기 때문에 평균이라는 표현도 가능하면 기댓값이라고 해주는 것이 더 좋다.  실제 계산에 있어서 오차는 관측이 되지 않기 때문에 논외로 치더라도, 최소제곱법의 1계 조건에 의해 잔차의 합은 0이 될 수 밖에 없다. (1계 조건 중 절편 모수에 대한 편미분결과가 0이 되어야하는 조건) 회귀분석 변수들 사이의 관계를 정확하게 기술하거나 예측을 하려면 이 잔차는 당연히 최소가 되어야 한다.]

주어진 자료를 분석하는 작업의 관점에서는 '회귀분석'이라고 부르는 일이 많지만, 이 분석 작업에 사용되는 것은 주어진 자료들 사이의 관계에 대한 모형이라는 점에서 '회귀모형'이라는 말 역시 빠지지 않고 접하게 된다.

자료를 설명해줄 수 있는 중심적인 트렌드를 찾는 것이 회귀분석의 목적이기 때문에, 이를 통해 만들어진 회귀모형은 상당히 활용할 수 있는 여지가 넓다. 예를 들어 (비록 쉽지는 않은 작업이지만) 많은 회귀모형이 '예측'의 맥락에서 사용되기도 한다. 물론 회귀모형을 이용해 알지 못하는 자료의 특징을 '예측'하는 것은 결코 쉽지 않은 일이기는 하지만, 원론적으로 이야기한다면 이런 것에도 써먹을 수 있다는 이야기이다. 그런 의미에서, '회귀분석'이 '결과에서 원인으로의 역산'이라고 이야기하는 것은 회귀분석의 일부분만을 설명하는 것밖에 지나지 않는다.

회귀 방정식은 독립변수 표본의 범위를 벗어나는 값에 대한 예측에 쓰면 안 된다. 여기에서 쓰면 안된다는 것의 의미는 '값을 구할 수는 있지만 그 결과가 그다지 유의한 의미는 없다'는 것이다. 선형추정의 특징 중 하나가 구간추정을 했을 때, 변수들의 표본평균벡터에서 예측구간이 가장 좁고, 그 점에서 멀어질수록 구간이 넓어진다는 것이다. 같은 유의수준 하에서라면 예측구간은 좁을수록 좋다. 그런데 독립변수의 값이 표본의 밖으로 넘어가면 예측 구간이 너무 넓어져서 예측의 의미가 없기 때문이다.

일반적으로 예측된 Y 값과 실제 데이터 사이에는 [[오차]]가 존재한다. 오차의 양은 다양하지만 평균적인 [[오차]]의 양은 [[상관관계]]의 강도와 직접적으로 연관된다.

종속변수의 예측값(predicted value, 혹은 fitted value를 번역하여 맞춤값이라고도 함)과 종속변수 실제값(actual value)의 [[상관 계수]] [* 단순회귀분석에서는 흔히들 사용하는 상관계수의 제곱이 R^^2^^와 일치하지만 다중회귀분석에서는 종속변수의 예측값과 실제값의 상관계수임을 명시해야한다. 변수가 여러 개인데 '상관계수'라고 하면 어떤 변수와 어떤 변수의 상관계수인지를 알 수 없기 때문이다.] [* 좀 더 정확히 말하면 종속변수에 대한 독립변수들의 다중상관계수이다.] r의 [[제곱]]인 [[결정 계수]](coefficient of determination) R^^2^^은 "전체 제곱합 중에서 회귀 제곱합이 설명하는 비중", 즉 "모형의 설명력"이다.

-1 ≤ r ≤ 1
0 ≤ R^^2^^ = SSR/SST ≤ 1

총 제곱합(total sum of square)이 SST, 회귀 제곱합(regression sum of square)이 SSR, 잔차 제곱합(residual sum of square)이 SSE이다. 단, 위의 부등식은 절편을 포함한 선형회귀에 대해서만 성립한다.

회귀 분석의 [[귀무 가설]] H,,0,,는 "기울기 [[β]],,1,,=0이다"같은 것이고, [[대립 가설]] H,,1,,은 "기울기 β,,1,,≠0이다"와 같은 것이다. 구체적인 예를 들자면, H,,0,,는 "약이 효과가 없다"이고, H,,1,,은 "약이 효과가 있다"이다. [[회귀 분석]]에서 [[절편]]은 β,,0,,라고 하고, [[기울기]]는 β,,1,,이라고 한다.

[[독립 변수]]가 [[종속 변수]]에 얼마나 영향을 끼치는가를 검증할 수 있다. 예를 들어, 공부 시간이 학교 성적에 얼마나 영향을 미치는지, 약물이 얼마나 효과가 좋은지 분석해볼 수 있다. y = β,,0,, + β,,1,, * x 와 같은 형태인데, 독립 변수가 x, 종속 변수가 y이다.

(1) H,,0,,: β,,0,, = 0 vs β,,0,, ≠ 0
(2) H,,0,,: β,,1,, = 0 vs β,,1,, ≠ 0

1번처럼 [[절편]]이 0인지 아닌지와, 2번처럼 [[기울기]]가 0인지 아닌지에 대한 검증이다. 많이 쓰는 건 2번이다. β,,1,,이 0이 아니라면 공부 시간이나 약물이 성적이나 질병에 효과가 있다는 것이다. [[p-값]]이 0.05보다 작으면 독립 변수가 종속 변수에 영향을 준다고 볼 수 있다. 특히, β,,1,,이 클수록 공부 시간이나 약물이 성적이나 질병에 효과가 좋다는 의미이다.

기울기 모수에 대한 검정이 보다 일반적인 이유는 회귀분석의 주된 목적이 변수 간의 관계를 알아보는 것이기 때문이다. 다만 연역적으로 유도한 결과 상수항(절편)이 없는 모형이 나왔고, 이 모형의 현실설명력을 실증적으로 검정하고자 할 때에는 β,,0,,에 대한 검정도 중요하다.[* 대표적으로 CAPM 모형] 즉 어떤 가설을 사용할지는 개별 연구의 목적에 따라 달라진다. 그리고 이런 경우에는 독립변수들이 음수와 양수에 폭 넓게 분포해 있어서, 절편에서의 신뢰구간이 좁게 나오는 경우도 많다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

회귀 분석 (문단 편집)

캡챠